AI资讯新闻榜单内容搜索-KV cache

长序列推理不再卡顿！北大华为KV缓存管理框架实现4.7倍推理加速

北大华为联手推出KV cache管理新方式，推理速度比前SOTA提升4.7倍！大模型处理长序列时，KV cache的内存占用随序列长度线性增长，已成为制约模型部署的严峻瓶颈。

来自主题: AI技术研报

5999 点击 2025-10-22 14:52

只用 1.5% 的内存预算，性能就能超越使用完整 KV cache 的模型，这意味着大语言模型的推理成本可以大幅降低。EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。

来自主题: AI技术研报

6834 点击 2025-09-15 08:33

推理大模型虽好，但一个简单的算数问题能推理整整三页，还都是重复的“废话”，找不到重点……

来自主题: AI技术研报

7702 点击 2025-06-16 15:50

首个用于加速扩散式大语言模型（diffusion-based Large Language Models, 简称 dLLMs）推理过程的免训练方法。

来自主题: AI技术研报

10071 点击 2025-05-27 16:22

在InternVL-2.5上实现10倍吞吐量提升，模型性能几乎无损失。

来自主题: AI技术研报

7028 点击 2025-04-03 16:12

LLM 在生成 long CoT 方面展现出惊人的能力，例如 o1 已能生成长度高达 100K tokens 的序列。然而，这也给 KV cache 的存储带来了严峻挑战。

来自主题: AI技术研报

5494 点击 2025-03-11 09:32

随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起，如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段，传统注意力机制中的键值缓存（KV Cache）会随着批处理大小和序列长度线性增长，俨然成为制约大语言模型规模化应用和推理时扩展的「内存杀手」。

来自主题: AI技术研报

7223 点击 2025-01-18 09:57

近日，BitNet系列的原班人马推出了新一代架构：BitNet a4.8，为1 bit大模型启用了4位激活值，支持3 bit KV cache，效率再突破。

来自主题: AI技术研报

7408 点击 2024-12-05 11:12

KV Cache 是大模型推理性能优化的一个常用技术，该技术可以在不影响任何计算精度的前提下，通过空间换时间的思想，提高推理性能。

来自主题: AI资讯

7944 点击 2024-09-03 10:46

用KV缓存加速大模型的显存瓶颈，终于迎来突破。北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案，只用2.5%的KV cache，就能保持大模型90%的性能。这下再也不用担心KV占用的显存容量过高，导致显卡不够用了。

来自主题: AI技术研报

5980 点击 2024-06-13 21:21